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This rep^t -treats »o»e of the technical diffidultia^ 
n lexicological «tiidi«%. that were undertaken order to 
a«ic vocatnlary, Ita purpose i«. to nkp^ that the 
ovorcote seme of these dif f iculties ^^'and specifically 
* progtaieing can serve, to eitAblish a vocabulary coneon 
and technical -languages- The discussion of the 
cof»puter prog^aMBiing c€int«r»'*on the following ivopicsr 
ity, . including a description of the coipilation and 

data, indexing, and prograasing; and (2\ gene^tti 
a1^ is scientifically oriented, including a description 
« of choosing and identifying words," and the choice and 
dictionaries. (AMH> 
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L'UTILlS^Tldl^^ L'OftDINAXKUH KH LKXICOMM'llUfc: 

0^ INTRODUCTION * L . > * 

Le but de la pr^lisenlo communication esl^dft^ Iralter des 
difficult^B ttrchnlques rvm oi\[r(^vH lors dc nfcs (^tU(ies 
logiques en vue d'^tablir ui) vocajpulalre de base.. En prenant 
comrae example nos <5tifdes sur la dlsponiblllt^ du voc^bulalre, 
nous voulons mgntrer que I'ordlnateOr 61ertroni{^u€ perraet 
^ ' de surmonter certalnes de ces dlfficuU^s.V Nous souUgnons 
le fait que les programmes' mis au point pour c^ette' recherche 
ont r^dvj possible le traitement efficace de ces donn^es, et 
ont favorls^ ^nmi le d^veloppem^nt c|e techniques g6«6rales 
qui peuverit etre utHie^es pour ap<)orter dee eolutlons a.des^ 
problekies analogues. NOus verrorts en partlculfer, dans - 
quelle mesure ces) p^pgrammea^eu^ent §ervlr a I'^tablls- 
8;?ment d'un vo^abulalre commun axix langues scientifiques 
el techniqufefl, 

- -1 • . .. 

1. LA MSPO^^t BILITE . . ^- ^ \ 

Dans ie cas de la dlsponlblltl^, le travail a.accompUr 

^ \^ ' ' • 

se divise en trols Stapes bien distinctes: - cv^napUation^s 

dqnn^fes la correction dee donn6es et le' calcui de I'indice f- 



di8p<)nlbllU<^- ^ ' ' ' ' ' ^ ^ 

I. 1 LA COMPILATION DESOWrt^ 

Lee sujets examines 6crlvent le? iirots de chaque centre^ 

* ' ■■ •■ ' . /' 

d'int6ret wir une feuUle. Ces mots sont transcrits sur caHes 

perfor6e8, Chaqu^ carte porte un num6ro dfe dossier qui per- 
- ■ ■ ■» ' 

)t de retracer la region ou est men^e Tenquele," le nam -de 

Treble le niveau scolalre et le nom de Thieve. Le contenu 

des carted est enregistr^ sur bandes magn^tiqvjes. A parttr 

des banfles magn^tlqueiy, , I'Qrdtnateur imprlme llstes de 

donn^es Initiales sur lesquelles les mdis figurent en ordtcr 

alphab^tl^ue. 

L2 LA cbimEC'noi^pjES ' . 



Pour corrlger les donn^es-, un^tre humarn^doit an^\oter 
ajia niain les llstes brutesVde donn6es inftiales^ . Ou'bien 
la fei^phie donn^e par r61eve est corr^jcte,' et le correcteur 
la c%ns*rve; ou blen la graphic est mauvai^e, et ajors il 
indlqu^'a la main a quelle borui^ graphie il faut reporter C( 
*mot. On perfdr^ de nou^elles c'artes, dites carte^f de 



ty! Jwu, ■ ^ -j- - 



♦ Volr Matkey, W. F. et aL : Le^vocabulaire dlsponible , 
ep F^nce et en A cadle^ P. U. lTTTS^^B. Le ^apitre V', 
dJcrit le processus de traltemeht" des dohn^es. 



correction, contenant les indications fournies par lo corroc- 
teur. .L'ordinateur lit concurremmont les cartes de corrcc- 




tlon et les bandes i^agn^tiques de>donn'4o8 initiales. H im - . 
prime les listes de verification, d'oii il faudra repartir si ' 
Ton Juge ji^cessaire de recortuniencer la correcf;ion. 

' 1. 3 ^LE CALCUL DE L'fflDICE DE DISPOt^IBIUTE 

m 

^ • Au courfl )teff deux premieres Stapes, i. e. la compili- 

>" , ' • . ' , • . 

tlon et l<a correction, PoriHinateur conserve pour chaque 

< ■% 

<mot d*un centre dUnt^ret, le ixombre de foi^ que les sujets 
Ont fournl ce'mot a chaque ann^e du cours,x et au total. D^ 

V 

meme, .au moment de'la mise sur bandes ma^gn^liqu^s des 
f donn^es initiales, I'ordinateur compte le n©mbre de sujets 
examlry68. II lieut done njaintenant 6tablir le poiircentage 
de dlflponlbilUfi pour chaque mot et im primer la liste finale 

' A ' ■ ' ■ " ■ - ' ■ 

contenant les^mots class6«^ selon rindite de dl^ponil^llite. 

1.4 LE PROGRAMME \ 

Le program me -macKine p^ijar^ pbur cette 6tude est 
efficace, puissant et flexible.* ' , , 

^ II «st efficace, puisqu'il r^duit au minimum le temps 



requl0 pour effectuer une op^l'ation ou vine s6rie d'opiSrations 



n eet pulflBanl, pnrc^(iuni permct d'ox<^( i\ter iiulomali 
qufement des operations aussl complexes qu^^ la separation 

s 

des mots, la suppression des articles, le classement des 

t » 

mots en ordre alphab6tiquevou en ordre de fr6queTico,^el 
meme, certaines parties de la correction. 

II est flexible, car li peut facilement etne modlfie ou 



utilise de differentes fa^ons. Ce programme est eiabli 
selon une conception relativemenl nouvelle de la program- 
mati<0il Sulvant 1^ methode habituelle de program mation, 
un programme"est.eiabor6 pour lire certalns parametres 
^d6fi;iissant le probl^me; lire les donn^es du' probleme; 
effectuer des operation^; Jmprimer des r6s)jltats inte^-' 
^ m^diaires; calculer imprimer le r^sultat finah^, 

^ ' '. 

Le nouveau modie de programmation utilise dans cette 
etude' s'appelle "programmation pai^ blocs d'instructlons". 
IJn prograrajme est alors forme d'un assemblage de blocs 
ou mleux de modules d' instructions, plus ou moins in'^e- „ 
pendants lee uns des autres, et auxquels i'ytll isateur 
r^fere a Taide^e cartes de commjandl^ qu' on Incorpore « 

au programme selon les besoins. 

. ■ - • - J' ^ ■ ^ ■ 

• - A. ■ ^ . 



f 



Co gonrt* (.l<'.pr()hr:nnm.<' csl pi (-pai r jnuf lire (r;ilKM (l 



unc ck&if- do conimantir. Sui/:in( \v « .jnl(Mui dc ( < lie i u U\ 
rotxIinaUHir roc)K>^c^v clnns \v \n\>\\n\mn\v r<ntip\v\ h i 
uroupr d'ln.struclioiKs, ( ulr Irs op('^r:i U^ns dciuandtH's; 
puis r<> 'i(Md Uro uiie autre ( Ic dt- < MiUiiaiulo, Daii« Ir 
CAS ii/ I'^^lude Hur la dispoMll)Ui(o, \v pro^'raiuiuo conlU^nl. 
chvli x)H 1, 000/>iH)iic^.s rii KORTUAH n-parl is. 'Tr r,r.)iip(^j . 
On pt'Ut, par exomple, d( mandci a I 'ordinaU'ur d'riircj'jsti ( r 
^ 8ur baiides magndti^yefl^, les donn^es iniliah'S du centre d'\n- 
t<^ret num6ro 10; d' enlever l^^s at*tirles; de ne f^arder qii' nne 

... * • 

entree pour chaqup 616nicnt, l.mt en a(iditionnan< kos -' ( nrren 
ees de cet 616ment; de elasser ees ^l^ments en ordrr alpha- 
b6(iqiie; de les Intiprimer a^/ec ou wans leur fr^qumee; puis 
de revenir lif^lns ('artes de ev)rreetiou du ecMiIre nun)6ro 
- 'et de reprendre tout le processus. 

» La mis« au point de-ce programme a eontril)u<:^ au d<5^/e- 
loppement de sous-pronranuues tres etfieaees pour le trade- 
mcnt,'non-num6rique de ripformatioiu Un certain n^xibro de' 
« ct^s sou^-programnrtes ont utilises pour ^nos Eludes sur la 
valence lexicale,^par exemple, pour eompterj le nombre de » 
fols qu'un mot est employ^ ^our.en d^finlr un autre; pour 



naisoT\ avec un autre; oVi encore, pour analyser les fn1^thO|(ieQ 
cFenseigriement des'langues. 

Voyons^ nnalntenanl si cc t>rogrannn)e ot ces sous-pro 
grammes pourralent etre utiles dans des 6tudes.visant a 
rdtabllesementjdu vocabulalre g^n^ral d'orien^tation sclen- 
tifique. 



2. LE VOCABULAIRE GENERAL. D'ORIENTATION SCIENTIFIQUE 

; ^ ■■ 7— 

2. 1 LA SEl>ARATION DEB MOTS 



f 



Comme on Pa dlt d^ja, dans I'^ude siir la disponlblllt6, 
11 s'aglssalt de preparer des llstes de mots d^tach^S'. Au 
moment de la transcription sur cartes, on a s6par6 cheque 
mot par un trait oblique. Ce trait servalt de Ugne de d6- 
marcalloiTeiift'e'les mots. ' 



1 



L'6tude du'vooabulalre g6n6ral d'orlentatlon sclentifique 
: / , ■ ' . ^ . ' ' 

se fera a I'alde de textes suivls. En vue de pouvolr recons- 

tltuer le text«V ^1 ^a"* 1« codlfle^.^u fur e{ a^esure qufe se , 

fait la tp/nscriptlon sur partesspferfor6es, ^On peut par 

eXemple, r^server solxante-dlx positions de la carte IBM, 

ur^^crlre les mots, alors que leB dix dernieres colonhes 

\ " - - 



10 ' ' ■ , 



conticnnent do Pliifornv.aioivgfemblablo a vv.Uv que ronteimif 



le num^rp de do/lsier I6rs de I'enqu^le sur le vocabulalre 
disponlble. Ici le num^ro r6fere au'tMrc du volume, a la 
page, -a la llgne et au rtvim^ro d'ordre du mOU Toute. eelle 
jn^orniation'cionsiUue les donn^e.s inUiales dont,nous dls- 
posonp a rentr^e de Pordinaleur. L^s carter sont lues 



parj^'.ordinateuV qui en (rurogi^tre le rontenu iiur bandes. 
magn^tiques. Le conteim d'une carte constilue une unit6. 
d'etyregistVement, o*u si Ton veut champ de lecture sur" 
la bandevmagn^tique. A Talde d'un SoOs -program me on 
commence 'le traitem^nt, i.e. la separation des mots. 
Eyidemment, 9^1a suppose. qu' on mdbnn^ a la machlne-umr 
d^j^initlon opdratlonneik dijS^c« que Ton cohsldere comme 
un mot. Disoris qu'un, Aiot,' dans ce cas, c'est u«e s6rie, 
de caracteres pr.6c6d6s, ouj^uiyls d^un espace. 

JL'ordlnateur lit une position, \in caractere sur rulJaiT. 
Lai a v^rifle B'll .s'agit 

1) d*un espace blanc,^ 

I 

2) ,d'*un caractere ttlphab^tlque ou d'uij'cmiffre 

3) d'un signe de ponbtuation. 



r 



En aomme, Icrp^e dt* ce sous-programme r^^umc 
ainsi. . U lit le^ texte (ourni a Tenlr^e, il fait disparaftre les 

* * ' * " 

eapaces blancfl, et il ^crit siir la b»nde mtt^n^tique, dans 
uhe aulre unlt6 d'enregistroment, chaqtie mot, rhaque 
chtffre ou chafeiue eigne de panctuatlon, sulvH'un ou I'autre^ , 
de ^information n^cefisaire a la reconstitution du texte. ' On 
a done eur bande magn6tiaue, lo mot ^ moi du toxte quo Tor- ^ 
dlnat^ur peut imprimer.a volont6. A la sortijt*, Sur papWr,. 
on reserve, dleons, 30 espaces pour le nk>t et 10 espacee 
pour rinformation. 



II est possible encore icl, a I'aide d'autres sous-pro- 
grammes, de classer les inotS en ordre alpMb^tique, de 
compter leur fr6quertc/s, et tneme leur distribution dans 
1^ texte, e.g. ce mot est revenif tant de fois au tofal, dont 
tant de lois a pi page 10, 30 oii 50. 

Un autre sous-prograiVime utilise pour publier des . „ 
index analytiques-ou ppur me^urer, en valenc^^JexlCalc,^ ^ IT 

puissance de cornblnalson'des m^ts,^ pourrait eite utile 
a cette dtape-ci de la recjierche. On a pu s^paref les mots, 
on-peut majntenant les r^unir. L'ordinateur peut facilement 
imprlmer tel m6t accompagn6 d<i mot qui le pj6cede, et'du 



/ 
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'mot qui le suH. De jxieme, on peot fairo Imprinior dos groupes 
de 4 5 ou 10 mots, A ce mo'^xient-la/it'S lechm(;ue5i d^^ con f/c- 
tlon semi-automatlque utiu's^es d^ns I'^tude du vocabulalre dis- 
pcfnlWe poifrralent etre^dapt^es a ces nouvoflos fins. 

>\ 

Plus slmplement encore, on pent fournlr a I'ordlnateiir un 
dlctlonnalxe (le syikagmes, qui lul.perno^ttralt d' Identifier les 
group|s de mots relev^s (^ans ie texte. Voila pos^e la question 
de 1^ Identification de? mots ou des syptagmes'^apres un dic- 
tlonnalre pr6-6tabii, 

2-2 L'I DENTIFICAT ION PES MOTS 

II ne sufflt pas en effet de savolr que tel volume contient 
5, 000 ou 10, 000 616ments dlff^rfents. II est Int^ressant de 
savolr aussl a quelle ca^gorie grammaticale appartlennent 
ces mots; de savolr si ce^mots ont un haut degr6 de valence^ 
de disponlblllt^ ou de frequence dans la langue comn*4ne. Pour 
obterilf ees' rehselgnenfients, 11 faut avoir recours a un diotion- 

nalre pr^-dtabll selon certains crlteres, 

- . . * 

2. 2. i ME CHODC DFS DidTIONNAIRES 



Co;nment cholslr ce ou ces dictkonnalres ? Devons-nous 

j ^ 

utiliser un dletlonnalre a entries ii/variables et contenant tous 



fes JTiottr tlue !'on puisse renconlrcr ctans tel texte V 'Cv genre^ 



Ut» dictlonmaire serait de consultation facile. Par conti'e, il 

serait tree vol^ini.ineux, <a il faudrait bc^ucoup de temps ( I 

»■.....■ 

d'efforls pour en fixer le conlenu. > 

\ 

U vaut mleux se servir de-plusieurs dloUonnaircfl: un 

X . * ^ * 

dlclionrtftire de ra4icftux pour le« mots-forts, oUrt dlctionnalro 
des rmots-fonctlonnels el un dictionnaire nlorphologique. 
dlcti^yinalre des mots-forts ne contlenfque la partie invariable 
des mots. Jie dictionnaire des mots-fonctlonnels est a peu pres 
complet. Le dictionnaire morphologique n'est pas autre chose 
qu'une Uste dee termlnaisons possibles-. De I'orf^anisation de 
ces dlctlonnaires d^p^nd en grande partie, Tefficacit^ de la t 

' • - / 

recherche. 

\^2.2.2 IjA STRt/CTORE DES DICTIONNAIRES 

2.2.2.1 LE DICTIONNAIRE PfeS MO TS- FORTS 



Les d6)5isions a prendre quant a la structure des divers^ 
Ictlonnalres dependent d'un certain nombre de facteurs comme 



— par exemple: la puis^sance de I'ordinateur dont on dispose, le 
materiel a 6tudler, -mi encore le type de recherche que Ton 
veut falre danjs le dictionnaire. Cctte recherche peut etre du 
type lln^aire ou du type binaire. ^ 



1} 

r 



■-• ■ ■,, ' ■ \ • 

1 1 

Supp(>HonH pour Ics brs<jln.s"(l(' In cnuHc qu(^ toirs l(>s luots- 
" ■» . ' . 

forts du loxt|vi>ulvl st>n( nKuntt'^i^"* ordrc a Iphal)Oliqur. 

Tentons ufte recherche^ U^^<5»i^'*--CijjnH dlctlonnnire alphab^- 
(Iquo. C'est tres fadlo. Chaquf-.nXt a identifier se (fbiive 



1h 



J 



dans lo dictionnairo, lr(\s pros du mot rhori pi 6(*^domnHMU . 
11 n^eat done pas n^cesHuirt' do \itv tout \^ die tlonna ire. pour 
(rouver un ittot.^ Point n'est besoin non plus, de garder 

v» 

(•ontinuellemefit tout \v dictlomiairo. L'exp<5richce d^montre 
qu*il sufflt amplement de garde;- en m<^moire une quinzaine 
de radlcaux. Seulement, selon c^te fagon de proc6der, il 
vaut mieux, pai'fois, aA^ir dans le dictionnaire, plusieurs 
radicaux pour le nf)eme (^|.6ment. Pensons aux verbes faire 
6t aller. il^our chaque fornrie diff^rente, 11 faut d'abord 

' " " 

comparer le mot a Identifier au radical du mot Identifl^ 
imm^diatement auparavant. SI le radical ^st lexeme, on 

I 

'cherche seulement la terminaispn dans le dictlonnaire mor- 
phologique. Slnon, 11 s'agit d*un mot differ eut et alors on 
^cherche un hutre radical. 

Le laps de temps n^ce'^saire a la recherche dans de 

V- 

telles conditions d4petid (ividemrbent de I'^endue du die 



tionnalre. Si I'on a un dictionnaire de 10,000 mots ct un 



I ■ 



textc contenanl 1,000 (^K^monts diff(^rc'ntjS, il faudra on " 

^ ' . • ■ ■ ^ . y 

m^jisc^nne,'^ 10 coiTiparaisonB par mot. 



J ' f 

Imagdnona \iiaintcnanl cjii'on veuille faire une rt^cherchc 



lln^aire dans 'un dlctionnalre alphabet ique, alofs que lefe 
mots cfu\texte sont rcBX^G en ordpE^ textuel; ou vic^Pt-e^sa, 
une recherche lin^aire dahs un tllctionnalre de frequence 
un texle en ordre alphab<^tlque. Cette (ois, ' th^orique- 
menl, une jrecherjche lin^aire poui^ identifier les 1,000 
^l^ments dans un alctionnaire de 10, 000 mOts supposeirait 
5, OOO-compaw^isons par mot, en nioyenne. Par ailleurs^ 
une recherche binaire, dans los memes conditions, n^ces- 
siterait, en ipoyenne, trois cents fols molns de consultations 
pouj: identifier chaque mot:^^ 



Jusqu'a pr^feent nous avons utilise une n^4thode com- 
bln^e de recher^zhe lln^alre et binaire dans' un dlctionnalre 
alphaljMi^u^^pour Identifier les mots d'un texte classes en 
[rdr^ alphab^tlque. Ce choix est du, en grande partie, au 
U qu'au moment de T^laboration <^es programmes, nous 
ne msposlons qu^ d'un ordinateur moyen, i.e. la machine 
IBM- 1410. Maintenant que nous pou^ns utiliser la pniachlne 
I^M-360 modele 40, munle de disques magn^tiques, \\ est 

■ ' ■ t ' - 



( . . . 

.|>jl^8 taclk* de (H)nsul(er un dlc(l()iiiu\ir(' plus <^kM^du. l/vn^ / * 
reglalrcmenl 8ur dlsqu^ permct wn <i< cos plus rapid^ a - . ". 

% ' • » 

... , . ^ < , 

tt^tee les entries ddna un dictionnaire, moiD^' s'll est 

iBsez volurtnineux. C*est pourquoi, on tentera surcinont ^ 

do luisscr^^^les motio a idrntifior vn orcf^c (oxtiuM. Quant 

au dictionnaire, ,11 pourra etre constitu^ du vocabiUalre du 

fraiKjais fondamental^que nou8 avons d^ja, ot auquel on [ 

ajoutyra le dictionnaire du \'Qcabulaire s<'i(}n(ifique que 

possede\n^tenant r^<:j[uipe ^ C.^ 

I 2. 2.2.2 LE DICTIONNAIRfi^DES MOTS-FONCTIONNELS 



-V 

i-fonot 



La liste complete dijs mots-fohotionnels est tellement res- 



trelnte qu'eUe ept facile a 6tabllr. Et 11 ne faudra jamais 
beaucpip de temps pour retrouv^r dans une lisle alphab^tlque 
ou dans une Uste de fr6qu|nce, I'un ou I'autre des 270 mots- J^* 
fonctionnels du frangais. a 

2.2.2.3 LE PI C TIONK AIRE M QRPtfOLOClCjUE 

Les termlnalsons des mOts dans (Tn texte i^uivl se pr6- \ 

h 

sentenl a peu pres au hasard. j?ros, on peut dire que si 

. * — ^ .' ( • 

Voi\ fait une recherc lin^aire dans un dictionnaire alpha- . 




b^tlque des termlnalsons, contenant 200 616ments, 11 faudra, ^. 
en moyenne, 100 confiparalsoni^pour Id^Jittfler chaque mot. ^ 



17 



' < 14 

SI Ton fait utic rccherc hi- du iypv binair*( ^ dans incnu* 
conditjone, 11 ♦♦ludra on moyonn<!, H coniparaKsons par niol. 



Dans le dlctionnaire morphologique, les (erm4naisons 

■ ' '■ \ ' j' 

ront en ordre atlphab^tique, touT simpft^'nuMiit parco qu'on 



ne connaft pas leur frequence. 

Inclusion t f 

VoUa un expos^, beaucoup trop s/ h^^inatlque a mon ^r6, ^ 

des princlpaux programmes 61ab6r<^s pooir mener a bien nos 

\ ■ 

6tudej9 lexlcologiques. ^ , 

Quant aux r^sultats de ces recherches,^on ne ni'en voudra 
pad, yen t^uTs sur, d^ mentionner que la revue ERAL a public 
eh julllet dernier un'r^^um^ de noy^tudes sur la valence l^^xl-' ' 
cale , D'autre part, les Presses de V^Jnivers4t^ Laval pour- 
ront dlBtrlbuer des 1968, deuX^volumes Intitules: LE VOCA- 



BjULAmEJPRANC EN ACADIE ET EN FRANCE 

♦ W. F, Mackey et Jean-Guy Savard: T he' In dices of Cover age^ 
dans BRAL, volume V, n'um^ros 2 et"^, Heidelberg, 19677 
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